1 Analyse descriptive

1.1 Description de la population

Le jeu de données est constitué de 569 entrées. Chacune de ces entrées correspond à une personne atteinte d’un cancer du sein chez qui une biopsie de la tumeur a été effectuée. Les noyaux des cellules tumorales on ensuite été analysé et les données recueillies sont présentées dans le tableau ci-dessous. Pour chaque variable, on a la moyenne (mean), l’erreur standard (SE) et la “pire”" valeur (worst, c’est-à-dire la moyenne des trois plus grandes valeurs de la variable).

Les 10 variables mesurées sur les noyaux des cellules sont :

  1. Radius : le rayon du noyau, qui est la moyenne des distances entre le centre du noyau et des points sur le périmètre
  2. Texture : écart-type des valeurs des échelles de gris
  3. Perimeter : le périmètre du noyau
  4. Area : l’aire du noyau
  5. Smoothness : la variation locale des longueurs du rayon
  6. Compactness, compacité : perimeter^2 / area - 1
  7. Concavity, concavité : sévérité des portions concaves du contour
  8. Concave points : nombre de portions concaves du contour
  9. Symmetry : la symétrie du noyau
  10. Fractal dimension : “coastline approximation” - 1

Chaque échantillon a un identifiant et un diagnostic associé à la tumeur (maligne, M ; ou bénin, B). Il y a 357 tumeurs bénignes (62.74 %) et 212 (37.26 %) tumeurs malignes.

Le tableau suivant résume quelques paramètres statistiques pour chaque variables :

1.1.1 Densités de répartition

La densité de répartition des valeurs de chaque variables est rapportée dans les graphiques suivants.

1.1.1.1 Malins et bénins confondus

On voit que pour certaines variables comme le périmètre ou le nombre de points concaves, on a une distribution bimodale.

Moyenne

SE

Worst

1.1.1.2 En fonction du diagnostic

Moyenne
Graphique 1 : répartition des moyennes pour chaque variable

Graphique 1 : répartition des moyennes pour chaque variable

SE
Graphique 2 : répartition des erreurs standard pour chaque variable

Graphique 2 : répartition des erreurs standard pour chaque variable

Worst
Graphique 3 : répartition des pires valeurs pour chaque variable

Graphique 3 : répartition des pires valeurs pour chaque variable

1.1.2 Corrélations

Pour savoir quelles sont les variables corrélées entre elles, on trace un diagrammes de corrélation :

Moyennes

SE

Worst

1.2 Description des variables

1.2.1 Diagnostic

C’est une variable catégorielle binaire qui renseigne sur le diagnostic associé à l’échantillon. Elle prend soit la valeur “B” pour désigner une tumeur bénigne, soit la valeur “M” pour une tumeur maligne.

Ainsi, on voit que deux tiers des tumeurs sont bénignes.

1.2.2 Taille du noyau

Trois variables numériques continues renseignent sur la taille du noyau des cellules : le rayon (radius), le périmètre (perimeter) et l’aire (area). Elles sont corrélées entre elles et liées par des relations mathématiques.

Rayon

Périmètre

Aire

1.2.3 Aspect

L’aspect du noyau est rapporté par deux variables numériques continues : la compacité et la texture. Comme pour la taille du noyau, les valeurs pour les tumeurs malignes sont plus élevées que pour les bénignes.

Compactness

La compacité est calculée par la formule suivante : \(\frac{perimeter^2}{area} - 1\)

Texture

La texture du noyau est calculée à partie de l’écart-type des valeurs des échelles de gris.

1.2.4 Forme du noyau

Cinq variables numériques continues ont été mesurées pour rendre compte de la forme du noyau. On voit que la différence entre les cellules malignes et bénignes est la plus marquée pour les variables concavity et concave points. Les cellules tumorales malignes ont donc un noyau avec des contours plus concaves par rapport aux cellules bénignes. La dimension fractale par contre n’est pas différente entre les deux types de cellules.

Smoothness

Concavity

Concave points

Symmetry

Fractal dimension

La dimension fractale est une variable numérique continue. Elle renseigne sur l’irrégularité des contours du noyau des cellules.

1.3 Variables pertinentes

La figure ci dessous montre les coefficients de corrélation entre le diagnostic et les autres variables.

Pour sélectionner les variables pertinentes, nous avons choisi de ne garder que celles qui sont corrélées à plus de 50% avec le diagnostic. Comme le périmètre, l’aire et le rayon sont liés entre eux, nous n’avons gardé que le périmètre, qui est la variable la plus corrélée des trois avec le diagnostic. On obtient alors 9 variables pertinentes qui sont, de la plus corrélée à la moins corrélée : concave_points_worst, perimeter_worst, concave_points_mean, perimeter_mean, concavity_mean, concavity_worst, compactness_mean, compactness_worst, perimeter_se.

Le graphique ci dessous montre le nuage de point obtenu quand on croise les deux variables les plus corrélées :

2 Clustering

La deuxième étape de notre analyse consistera à utiliser des algorithmes de clustering pour identifier des groupes au sein des données.
Nous utiliserons trois algorithmes de clustering :

  • k-means clustering
  • clustering hiérarchique
  • GMM-EM

Nous avons vu lors de l’étape de description du jeu de données qu’une répartition bimodale pouvait apparaître avec certaines variables, suggérant l’existence de deux groupes. Nous verrons donc lors de cette étape de clustering si les algorithmes utilisés arriveront à constituer deux groupes distincts et homogènes.

Avant de pouvoir utiliser les algorithmes de clustering, on doit d’abord standardiser les données à l’aide de la fonction scale.

2.1 K-means

Le premier algorithme utilise la méthode des k-moyennes.

n %
380 66.8
189 33.2

Le tableau suivant résume les performances de l’algorithme en utilisant les sommes inter-clusters et intra-clusters des carrés des distances entre les données.

Somme intra-cluster Somme totale Somme totale intra-cluster Somme inter-cluster
Cluster 1 : 5249.95
Cluster 2 : 6325.14
17040 11575.08 5464.92

2.2 Clustering hiérarchique

Les résultats d’un clustering hiérarchique sont visualisables avec un dendrogramme.

n %
213 37.4
356 62.6

2.3 Mélange gaussien avec espérance-maximisation

Le troisième algorithme de clustering que nous avons choisi est l’algorithme d’espérance-maximisation sur un modèle de mélange gaussien. C’est un algorithme de soft-clustering donc chaque individu a une probabilité d’appartenir à l’un ou l’autre des clusters, ce qui est particulièrement approprié dans le contexte d’une décision médicale lorsqu’il s’agit de poser un diagnostic.

=> Les deux autres algorithmes utilisés précédemment sont des algorithmes de hard-clustering c’est-à-dire que chaque individu est assigné à un cluster de façon binaire. On ne sait pas avec quelle certitude l’assignation est faite.

n %
242 42.5
327 57.5
##    
##       1   2
##   B  54 303
##   M 188  24

2.4 Evaluation des modèles

En résumé, les trois algorithmes de clustering identifient bien les deux clusters.

Pour évaluer la cohérence des clusters, nous avons utilisé le coefficient de silhouette et sa représentation graphique. La ligne rouge en pointillé représente le score moyen.

##   cluster size ave.sil.width
## 1       1  380          0.44
## 2       2  189          0.15
##   cluster size ave.sil.width
## 1       1  213          0.09
## 2       2  356          0.43
##   cluster size ave.sil.width
## 1       1  242          0.00
## 2       2  327          0.47

On remarque qu’à chaque fois, c’est le plus grand des clusters qui obtient les scores silhouette les plus élevés et qu’ils sont quasiment tous positifs. En revanche, le cluster le plus petit est moins cohérent, avec des scores qui sont presque tous en dessous de la moyenne pour les trois algorithmes.

3 Classification

En dernière partie de notre analyse, on utilisera des algorithmes de classification pour prédire la classe diagnostique. Mais pour appliquer ces algorithmes, on doit d’abord diviser le jeu de données en deux parties :

  • une partie entrainement (train) sur laquelle se fera l’apprentissage
  • et une partie vérification (test) sur laquelle on appliquera l’algorithme de classification pour prédique la classe diagnostique.

Les trois algorithmes utilisé sont :

  • l’arbre de décision
  • la régression logistique
  • random forest

3.1 Arbre de décisions

Le premier algorithme de classification est l’arbre de décision. Cet algorithme a l’avantage d’être intuitif et d’expliciter les variables utilisées pour classifier les données.

On retrouve ici les variables perimeter_worst ou radius_worst et concave_points_worst comme critères de décision, ce qui est cohérent avec ce qu’on avait trouvé plus haut lors de la recherche des variables pertinentes. En effet, ces deux variables sont celles qui sont les plus corrélées au diagnostic.

Néanmoins cette relation n’a pas été observée avec texture_worst, dont le coefficient de corrélation avec diagnosis n’est que le 46 %.

3.2 Régression logistique

Etant donné que nous devons prédire une variable binaire dans le cadre d’une analyse multivariée, nous avons choisi d’utiliser un algorithme de régression logistique.

3.3 Random forest

L’algorithme de random forest est la méthode ensembliste que nous avons choisi.

3.4 Comparaison des modèles

Pour comparer les performances des différents algorithmes, on avons utilisé le package caret pour produire des matrices de confusion et différents indicateurs de qualité des modèles qui sont la sensibilité, la specificité et les valeurs prédictives positives et négative.

Après plusieurs essais, random forest est l’algorithme qui obtient les meilleures performances, alors que la régression logistique obtient les pires.